Mạng nơron tích chập là gì? Các công bố khoa học về Mạng nơron tích chập

Mạng nơron tích chập (Convolutional Neural Network - CNN) là một kiểu mạng nơron nhân tạo được thiết kế đặc biệt để xử lý dữ liệu có cấu trúc lưới như ảnh, âm t...

Mạng nơron tích chập (Convolutional Neural Network - CNN) là một kiểu mạng nơron nhân tạo được thiết kế đặc biệt để xử lý dữ liệu có cấu trúc lưới như ảnh, âm thanh.

CNN được gọi là "tích chập" bởi vì nó sử dụng phép tích chập để trích xuất các đặc trưng quan trọng từ dữ liệu đầu vào. Quá trình này tương tự như việc sử dụng bộ lọc (filter) để nhận diện các đặc trưng khác nhau trong ảnh.

CNN được cấu thành bởi các tầng chính, bao gồm:

1. Tầng đầu vào (Input Layer): Nhận dữ liệu đầu vào (ví dụ: ảnh) và truyền qua tầng tiếp theo.
2. Tầng tích chập (Convolution Layer): Áp dụng phép tích chập để trích xuất các đặc trưng từ dữ liệu đầu vào.
3. Tầng gộp (Pooling Layer): Giảm kích thước của đầu ra từ tầng tích chập bằng cách chọn giá trị lớn nhất hoặc trung bình của các vùng dữ liệu.
4. Tầng kết nối đầy đủ (Fully Connected Layer): Nhận các đặc trưng đã được trích xuất từ các tầng trước đó và thực hiện phân loại.
5. Tầng đầu ra (Output Layer): Trả về kết quả phân loại.

CNN đã được chứng minh là rất hiệu quả trong nhiều nhiệm vụ như nhận dạng ảnh, phân loại văn bản, nhận diện giọng nói, và có ứng dụng rộng rãi trong ngành công nghệ thông tin và trí tuệ nhân tạo.
Để hiểu chi tiết hơn về mạng nơron tích chập, hãy xem xét cấu trúc và hoạt động của nó:

1. Tầng đầu vào (Input Layer):
- Nhận dữ liệu đầu vào, ví dụ: ảnh kích thước N x N pixels.
- Dữ liệu từ ảnh có thể được biểu diễn dưới dạng ma trận 2 chiều (N x N) hoặc ma trận 3 chiều (N x N x 3) nếu ảnh là ảnh màu.

2. Tầng tích chập (Convolution Layer):
- Gồm một số bộ lọc (filter) được áp dụng lên dữ liệu đầu vào.
- Mỗi bộ lọc có kích thước nhỏ hơn hoặc bằng kích thước đầu vào và thực hiện phép tích chập trên dữ liệu.
- Quá trình tích chập sẽ tính toán tổng trọng số của các pixel trong vùng tương ứng và tạo ra đầu ra là một ma trận đã được lọc.
- Phép tích chập giúp trích xuất các đặc trưng quan trọng như cạnh, gốc, vùng tối sáng,...

3. Tầng gộp (Pooling Layer):
- Mục đích của tầng này là giảm kích thước không gian của dữ liệu để giảm độ phức tạp tính toán và số lượng tham số.
- Có các phép gộp thông thường như phép gộp cực đại (max pooling) hoặc phép gộp trung bình (average pooling).
- Tầng gộp giữ lại các đặc trưng quan trọng nhất trong vùng quét và loại bỏ thông tin không quan trọng.

4. Tầng kết nối đầy đủ (Fully Connected Layer):
- Tập hợp các đặc trưng đã được trích xuất từ tầng trước đó và đưa vào một hoặc nhiều tầng kết nối đầy đủ.
- Các tầng này chứa các nơron được kết nối hoàn toàn với tầng trước.
- Hàm kích hoạt (ví dụ: ReLU) được áp dụng cho đầu ra của từng nơron trong tầng này.

5. Tầng đầu ra (Output Layer):
- Đưa ra dự đoán cho tác vụ phân loại hoặc dự báo.
- Phụ thuộc vào nhiệm vụ cụ thể, hàm kích hoạt cuối cùng có thể là softmax (cho phân loại) hoặc tuyến tính (cho dự báo).

Qua các tầng trên, mạng nơron tích chập học cách trích xuất và hiểu thông tin quan trọng từ dữ liệu đầu vào. Điều này cho phép nó tìm hiểu các đặc trưng tương tự trong các vùng không gian khác nhau của ảnh hoặc dữ liệu và sử dụng các đặc trưng này để phân loại hoặc dự báo.

Danh sách công bố khoa học về chủ đề "mạng nơron tích chập":

MÔ HÌNH MẠNG NƠRON TÍCH CHẬP ĐA NHIỆM NHẬN DẠNG KHUÔN MẶT VÀ BIỂU CẢM CHO ỨNG DỤNG HỖ TRỢ GIÁM SÁT HỌC TRỰC TUYẾN
Hệ thống quản lý học tập trực tuyến (LMS) đang được phát triển mạnh, góp phần nâng cao chất lượng đào tạo. Tuy nhiên, việc tăng cường giám sát và hỗ trợ người học, theo dõi và quản lý học tập dựa trên các công nghệ hiện đại chưa được nghiên cứu sâu rộng. Đặc biệt là ứng dụng của công nghệ nhận dạng khuôn mặt và biểu cảm khuôn mặt giúp cho việc theo dõi, giám sát người học được tự động hoá cao độ và hỗ trợ kịp thời. Bằng việc ứng dụng công nghệ mạng nơron tích chập đa nhiệm (MTCNN), nghiên cứu này đề xuất một mô hình MTCNN nhằm thực hiện hai nhiệm vụ là nhận dạng khuôn mặt và nhận dạng biểu cảm khuôn mặt. Mô hình được thử nghiệm trên các tập dữ liệu công bố gồm CK+, OuluCASIA và dữ liệu người học được thu thập cho kết quả khả quan khi so sánh với một số kiến trúc hiện đại trong khi kích thước mô hình đơn giản hơn. Chúng tôi cũng thiết kế tích hợp mô hình được đề xuất với hệ thống quản lý học tập trực tuyến (LMS) theo hướng kết nối mở để gia tăng thêm tính năng giám sát và theo dõi quá trình học tập, chủ động cảnh báo cho giáo viên, người học biết để điều chỉnh hoạt động dạy và học nhằm nâng cao chất lượng đào tạo.
#Mạng nơron tích chập đa nhiệm #nhận dạng khuôn mặt #nhận dạng biểu cảm khuôn mặt #hệ thống quản lý học tập trực tuyến
Chỉ Tiền Xoay Tại Giai Đoạn Suy Diễn: Một Phương Pháp Để Đạt Được Tính Bất Biến Với Sự Xoay Của Mạng Nơron Tích Chập Dịch bởi AI
International Journal of Computational Intelligence Systems - Tập 17 Số 1
Tóm tắt

Các mạng nơron tích chập (CNN) phổ biến cần phải tăng cường dữ liệu để đạt được tính bất biến với sự xoay. Chúng tôi đề xuất một cơ chế thay thế, Chỉ Tiền Xoay Tại Giai Đoạn Suy Diễn (PROAI), để làm cho CNN bất biến với sự xoay. Ý tưởng tổng quát là học cách mà não người quan sát hình ảnh. Tại giai đoạn huấn luyện, PROAI huấn luyện một CNN với một số lượng nhỏ bằng cách chỉ sử dụng hình ảnh ở một cách định hướng. Tại giai đoạn suy diễn, PROAI giới thiệu một phép biến đổi tiền xoay để xoay mỗi hình ảnh kiểm tra vào tất cả các định hướng có thể và tính toán điểm phân loại sử dụng CNN đã huấn luyện với số lượng tham số nhỏ. Giá trị cao nhất trong những điểm phân loại này có khả năng tự ước lượng cả thể loại và định hướng của mỗi hình ảnh kiểm tra. Những lợi ích cụ thể của PROAI đã được thử nghiệm trên các nhiệm vụ nhận dạng hình ảnh đã xoay. Kết quả cho thấy PROAI cải thiện cả hiệu suất phân loại và ước lượng định hướng trong khi giảm đáng kể số lượng tham số và thời gian huấn luyện. Mã nguồn và tập dữ liệu có sẵn công khai tại https://github.com/automlresearch/FRPRF.

PHƯƠNG PHÁP ƯỚC LƯỢNG GÓC NHÌN DỰA TRÊN ĐIỂM 3D ĐẶC TRƯNG KHUÔN MẶT VÀ ỨNG DỤNG GIÁM SÁT THI TRỰC TUYẾN
Ước lượng góc nhìn khuôn mặt (HPE) là một bài toán phức tạp đòi hỏi sự kết hợp giữa xử lý hình ảnh, thị giác máy tính và kỹ thuật học máy với các phương pháp hiện nay dựa trên mạng nơron tích chập (CNN) để xác định ánh xạ giữa không gian ảnh 2D và mô hình 3D khuôn mặt và xác định các góc nhìn. HPE được ứng dụng trong nhiều vấn đề thực tiễn và có ý nghĩa cao như các giám sát an ninh, phát hiện sự tập trung của lái xe, giám sát người học và thi trực tuyến,... Nghiên cứu này sử dụng mô hình CNN hiện đại để phát hiện các điểm đặc trưng khuôn mặt và đề xuất một phương pháp ước lượng góc nhìn khuôn mặt sử dụng thuật toán rừng ngẫu nhiên dựa trên các điểm đặc trưng 3D của khuôn mặt từ ảnh 2D để xác định góc nhìn của khuôn mặt trên ảnh đó. Kết quả thử nghiệm của phương pháp đề xuất trên bốn tập dữ liệu phổ biến đạt chất lượng tốt, cho sai số thấp nhất ở hai trong số 4 tập dữ khi so sánh các phương pháp. Chúng tôi đưa ra một thiết kế tích hợp giữa phương pháp đề xuất với hệ thống quản lý học tập trực tuyến nhằm hỗ trợ giám sát và đánh giá sự tập trung tham gia học tập và làm bài thi của người học.
#Giám sát thi trực tuyến #thị giác máy tính #mạng nơron tích chập #hồi quy rừng ngẫu nhiên
Thiết kế Mạng Nơron Tích Chập Sâu cho phân loại chữ ký theo loại của hình ảnh vệ tinh panchromatic thô Dịch bởi AI
Multimedia Tools and Applications - - 2022
Phân loại chữ ký theo loại từ xa đã đạt được những ý nghĩa quan trọng trong phân tích hình ảnh có độ phân giải không gian do sự khác biệt trong phản ứng không gian của cảm biến và biến đổi bề mặt. Do đó, tính chất kết hợp độ xám của các đặc trưng kết cấu tỉ lệ xác suất cho nhiệm vụ phân loại là rất quan trọng. Truyền thống, các bộ phân loại dựa trên học sâu Mạng Nơron Tích Chập (CNN) cho các chữ ký có tỉ lệ phổ/không gian (hình ảnh siêu phổ hoặc đa phổ) sẽ trích xuất các đặc trưng sâu và phân loại chính xác các cảnh cảm biến từ xa thành các nhãn/loại phù hợp. Khi xử lý với hình ảnh panchromatic thô, không gian với các chữ ký góc khác nhau sẽ có các mẫu quy mô xám chưa qua đào tạo, các biến thể chuyển vị và xoay. Vấn đề này vẫn còn là một nút thắt trong việc gán nhãn và phân loại dữ liệu bằng cách sử dụng các mô hình đã được đào tạo trước từ hai nguồn riêng biệt dựa trên đặc điểm cấu trúc không gian của nó. Trong bài báo này, một mô hình CNN sâu mười ba lớp được thiết kế cho việc phân loại chữ ký theo loại của tập dữ liệu vệ tinh panchromatic thô. Thiết kế này được thực hiện qua ba giai đoạn - Đầu tiên, phương pháp trích xuất nội dung và ý nghĩa toàn cầu của các hình ảnh cảm biến từ xa tại cấp độ cảnh. Sau đó, nó so sánh chéo với việc huấn luyện và kiểm tra các chữ ký cảm biến từ xa phức tạp đã được xác định trong các hình ảnh giữa các tập dữ liệu thô với biến thể lớn giữa và trong các lớp. Cuối cùng, việc xác thực bộ huấn luyện-thử nghiệm tỷ lệ 70:30 được thực hiện để phân loại một lô hình ảnh thành các chữ ký đã được gán nhãn tương ứng (Đất và biển) với độ chính xác đạt 88,9%. Các phiên bản sửa đổi của năm bộ phân loại đã được đào tạo trước hiện đại nhất được thử nghiệm để kiểm tra hiệu quả của phương pháp đề xuất.
Mạng nơron tích chập cấu trúc cây cho phân loại giới tính và độ tuổi dựa trên dáng đi Dịch bởi AI
Multimedia Tools and Applications - Tập 82 - Trang 2145-2164 - 2022
Phân loại giới tính và ước lượng độ tuổi là những nhiệm vụ mà con người thực hiện rất tốt. Nếu giới tính và độ tuổi của con người có thể được nhận diện tự động từ hình ảnh, điều này sẽ rất hữu ích cho nhiều ứng dụng như giám sát thông minh, tiếp thị vi mô, v.v. Chúng tôi đề xuất một khung công tác cho việc phân loại giới tính và độ tuổi qua phân tích dáng đi. Nhận diện dựa trên dáng đi là một phương pháp khả thi vì dáng đi của đối tượng con người vẫn có thể được nhận diện từ khoảng cách xa. Các đặc trưng dáng đi không gian-thời gian được thể hiện một cách ngắn gọn dưới dạng Hình ảnh Năng lượng Dáng đi (GEI), sau đó được đưa vào mạng nơron tích chập (CNN) cấu trúc cây. Chúng tôi huấn luyện và kiểm tra mô hình đầu tiên trên tập dữ liệu dáng đi đơn nhìn. Dựa trên khung mạng CNN cấu trúc cây, chúng tôi đề xuất một mô hình lớn hơn cho phân loại giới tính và độ tuổi với tập dữ liệu dáng đi đa nhìn. Các mô hình của chúng tôi có thể đạt được độ chính xác phân loại giới tính là 97.42% và 99.11% trên dáng đi đơn nhìn và đa nhìn tương ứng. Sau đó, chúng tôi sử dụng mô hình của mình để thực hiện ước lượng nhóm tuổi và phân loại nhị phân (nhóm trẻ và nhóm lớn tuổi). Ngoài ra, các mô hình của chúng tôi có thể đạt được hiệu suất tốt nhất trong ước lượng độ tuổi cụ thể về mặt các đo lường số liệu khác nhau so với các phương pháp gần đây khác được đề xuất.
#phân loại giới tính #ước lượng độ tuổi #dáng đi #mạng nơron tích chập #Hình ảnh Năng lượng Dáng đi
Chia sẻ trọng số trong các lớp nông thông qua các phép tích chập tương đương nhóm quay Dịch bởi AI
Springer Science and Business Media LLC - Tập 19 - Trang 115-126 - 2022
Phép toán tích chập có đặc tính equivariance nhóm dịch chuyển. Để đạt được nhiều tính chất equivariance nhóm hơn, các phép tích chập tương đương nhóm quay (RGEC) được đề xuất nhằm đạt được cả tính chất equivariance nhóm dịch chuyển và quay. Tuy nhiên, các công trình trước đó tập trung nhiều hơn vào số lượng tham số mà thường bỏ qua các chi phí tài nguyên khác. Trong bài báo này, chúng tôi xây dựng mạng lưới của mình mà không đưa ra thêm chi phí tài nguyên. Cụ thể, một bộ lọc tích chập được quay đến các hướng khác nhau để trích xuất đặc trưng từ nhiều kênh. Đồng thời, chúng tôi sử dụng ít bộ lọc hơn nhiều so với các công trình trước đó để đảm bảo rằng số kênh đầu ra không tăng lên. Để tăng cường tính trực giao của các bộ lọc ở các hướng khác nhau, chúng tôi xây dựng hàm mất mát không tối đa hóa trên chiều quay để chặn các hướng khác trừ hướng có kích hoạt cao nhất. Xem xét rằng các đặc trưng cấp thấp hưởng lợi nhiều hơn từ tính đối xứng quay, chúng tôi chỉ chia sẻ trọng số trong các lớp nông (SWSL) thông qua RGEC. Các thử nghiệm rộng rãi trên nhiều tập dữ liệu (ví dụ: ImageNet, CIFAR và MNIST) cho thấy SWSL có thể hưởng lợi hiệu quả từ việc chia sẻ trọng số cấp cao hơn và cải thiện hiệu suất của nhiều mạng khác nhau, bao gồm cả kiến trúc plain và ResNet. Trong khi đó, số lượng bộ lọc và tham số tích chập ít hơn nhiều (ví dụ: ít hơn 75%, 87,5%) trong các lớp nông, và không có chi phí tính toán bổ sung nào được đưa ra.
#RGEC #chia sẻ trọng số #tính trực giao #mạng nơron sâu #phép tích chập nhóm quay
TÌM KIẾM ẢNH SỬ DỤNG MẠNG NƠRON TÍCH CHẬP VÀ ĐỒ THỊ PHÂN CỤM
Trong bài báo này, một mô hình tìm kiếm ảnh dựa trên mạng nơron tích chập kết hợp cấu trúc đồ thị cụm được thực hiện nhằm nâng cao hiệu suất và giảm thời gian truy vấn ảnh. Để thực hiện bài toán này: (1) mạng Noron tích chập được sử dụng để xác định và phân loại các đối tượng trên ảnh; (2) cấu trúc đồ thị cụm được xây dựng để thực hiện xây dựng ontology; (3) tập ảnh tương tự được trích xuất dựa trên ontology sau thực hiện khi tìm kiếm bằng câu truy vấn SPARQL. Với mỗi ảnh đầu vào, sau khi phân loại từng đối tượng bằng mạng Noron tích chập; trích xuất vector đặc trưng; phân lớp ảnh và thực hiện truy vấn ontology để trích xuất tập ảnh tương tự. Trên cơ sở lý thuyết đề xuất, một mô hình truy vấn ảnh được đề xuất và thực nghiệm trên bộ ảnh COCO, Flickr với độ chính xác tương ứng lần lượt là 0.7950, 0.8116. Theo kết quả thực nghiệm, phương pháp đề xuất của chúng tôi được đánh giá là đúng đắn và so sánh với các công trình khác trên cùng bộ ảnh nhằm đánh giá tính hiệu quả của mô hình đề xuất; đồng thời áp dụng được cho các bộ dữ liệu khác nhau.  
MÔ HÌNH MẠNG NƠRON TÍCH CHẬP ĐA NHIỆM NHẬN DẠNG KHUÔN MẶT VÀ BIỂU CẢM CHO ỨNG DỤNG HỖ TRỢ GIÁM SÁT HỌC TRỰC TUYẾN
Hệ thống quản lý học tập trực tuyến (LMS) đang được phát triển mạnh, góp phần nâng cao chất lượng đào tạo. Tuy nhiên, việc tăng cường giám sát và hỗ trợ người học, theo dõi và quản lý học tập dựa trên các công nghệ hiện đại chưa được nghiên cứu sâu rộng. Đặc biệt là ứng dụng của công nghệ nhận dạng khuôn mặt và biểu cảm khuôn mặt giúp cho việc theo dõi, giám sát người học được tự động hoá cao độ và hỗ trợ kịp thời. Bằng việc ứng dụng công nghệ mạng nơron tích chập đa nhiệm (MTCNN), nghiên cứu này đề xuất một mô hình MTCNN nhằm thực hiện hai nhiệm vụ là nhận dạng khuôn mặt và nhận dạng biểu cảm khuôn mặt. Mô hình được thử nghiệm trên các tập dữ liệu công bố gồm CK+, OuluCASIA và dữ liệu người học được thu thập cho kết quả khả quan khi so sánh với một số kiến trúc hiện đại trong khi kích thước mô hình đơn giản hơn. Chúng tôi cũng thiết kế tích hợp mô hình được đề xuất với hệ thống quản lý học tập trực tuyến (LMS) theo hướng kết nối mở để gia tăng thêm tính năng giám sát và theo dõi quá trình học tập, chủ động cảnh báo cho giáo viên, người học biết để điều chỉnh hoạt động dạy và học nhằm nâng cao chất lượng đào tạo.
#Mạng nơron tích chập đa nhiệm #nhận dạng khuôn mặt #nhận dạng biểu cảm khuôn mặt #hệ thống quản lý học tập trực tuyến
Tổng số: 13   
  • 1
  • 2